Scrapy基础——Debug和test

写代码的最常做的事情就是debug和test,那么如何在Scrapy中检查爬虫能否正常运行,保证在大规模作业时不会遇到奇奇怪怪的问题呢?这里主要根据实例说些debug的方法。


Debug三部曲

Parse

parse命令主要用于从method级别去检查爬虫不同部分的行为。它有以下几个可选项:

  • --spider=SPIDER,指定爬虫
  • --a NAME=VALUE,设置爬虫变量
  • --callback/-c 指定爬取响应的爬虫方法
  • --pipelines: 通过pipelines处理爬取的item
  • --rules,使用CrawlSpider的时候用于定义规则
  • --noitems,不要显示爬取后的items
  • --nolinks,,不要显示提取的链接(links)
  • --nocolor, 不要颜色
  • --depth/-d,对于每个链接的爬取深度,类似于盗梦空间的梦中梦,默认是1,就是爬取这个链接中网页后就停止
  • --verbose/-v,相当于显示每一层的梦境内容
    举个栗子,下面是我用来爬取豆瓣哲学分类下所有图书信息的代码,
# -*- coding: utf-8 -*-
from scrapy.spiders import CrawlSpider, Rule
from scrapy.http import Request
from ..items import DoubanItem
from scrapy.linkextractors import LinkExtractor


class DoubanSpider(CrawlSpider):
    name = "douban"
    allowed_domains = ["douban.com"]
    start_urls = (
        'https://book.douban.com/tag/哲学',
    )

    rules = (
        Rule(LinkExtractor(allow='/tag/哲学',restrict_xpaths=('//*[@id="subject_list"]/div[2]/span/a')),
            callback='link_parse',follow=True),

    )

    def link_parse(self, response):
        links = response.css('div.info > h2 > a::attr(href)').extract()
        for link in links:
            yield Request(link,callback=self.parse_content)

    def parse_content(self, response):
        item = DoubanItem()
        item['title'] = response.xpath('//*[@id="wrapper"]/h1/span/text()').extract()
        item['author'] = response.css('div#info > span >a::text').extract_first()
        # item['pub_date'] = response.xpath('//*[@id="info"]/text()[4]').extract()
        # item['price'] =response.xpath('//*[@id="info"]/text()[6]').extract()
        item['desc'] = response.xpath('//*[@id="link-report"]/div[1]/div/p').extract_first() or \
                        response.xpath('//*[@id="link-report"]/span[1]/div/p').extract_first()
        item['score'] = response.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()').extract_first()
        return item

我想测试一下方法parse_content获取link_parse爬取到每本书的链接后能不能到继续爬取链接里面的图书信息,在命令中输入scrapy parse --spider=douban -c parse_content -v https://book.douban.com/subject/1291204/
命令说明:指定使用爬虫douban的parse_content方法去爬取链接,并且显示每一层的内容,结果如下:


所以他可以验证你定义爬虫的方法能否正常使用哦。

Scrapy Shell

parse只能显示爬取的结果,但是爬虫爬取的细节就是一个黑箱子,你无法看见。这里我们就可以使用前面常用shell,不过功能更具体一点。
你可以使用scrapy shell --spider=douban https://book.douban.com/tag/哲学,然后在之后的命令行中使用xpath和css选择器提取item,使用view(reponse)就能以你定义的爬虫的视角看网页。

Logging

这个很像我们刚开始最爱用的print,在快要出错的地方放在一行print看看案发现场。这里我们快要使用它自带的记录函数logging,也是在容易出错的地方加一行这个,如下图

logging

test之Spiders Contracts

我在爬取某图片网站的时候,打算先爬取个50个页面测试一个爬虫的稳定性,你可以选择瞪着显示器,一个一个数,看结果不断的闪过然后觉得差不多了退出。随意推荐使用Scrapy中的一个用来进行单元测试的特性--Contract,顾名思义这是一个合同工,合同到期就停止工作。直接上代码说他的使用方法:

contract

只要在你需要测试的单元用""" code """,在code中添加红框里的内容,'#'这个字段及其后面内容不需要添加,我这里用于说明功能而已。使用scrapy check <spider>既可以进行单元测试,如果你需要测试更多内容,请翻阅这里
运行结果如下,看来我要去处理一下错误了。

check结果

以上就是scrapy常用的debug和test技巧,能够帮助你验证爬虫写的一个功能能否正常运行,出错的时候去检查网页,记录错误信息。当然no news is good news,还是祝大家能够顺利的写好代码。
你也可以在我的个人博客上看到这篇文章,虽然没有什么差别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容